EfficientML.ai Lecture 15Long-Context LLM

Context Extension

先介绍了长度外推的相关工作RoPE和LongLoRA,与我们工作关系度不大,所以只是大概了解了一下这两个工作。

Evaluation of Long-Context LLMs

The Lost-in-the-Middle Phenomenon

LLM如何有效地利用长上下文的信息

image-20250106134444715

相关信息出现在开头和结尾,准确率比较高;假如相关信息出现在中间,准确率比较低。

所以长上下文相比速度快,更加需要解决的一个问题就是:长文本情况下的有效性问题


Long-Context Benchmarks

  1. Needle In A Haystack

    在文档的不同地方插入信息,并在最后进行询问

    image-20250106135306247

  2. LongBench

    有关长上下文问题的更全面评估的benchmark,包含6个任务类型的21个数据集,支持13000+tokens的上下文,并使用F1和ROUGE等指标自动评估。

    scaled position embeddings可以增加长上下文理解

Efficient Attention Mechanisms

本章节介绍一些有效的Attention机制

KV Cache内存占用问题

image-20250106135906255

对于长度为2000的上下文,内存占用消耗为:

image-20250106140022959


StreamingLLM

详见StreamingLLM

StreamingLLM并不能无限生成,则会遇到另外一个问题,已逐出的token包含的信息无法再被考虑到了,所以就引出他们另外一个工作:DuoAttntion。


DuoAttention

详见

results matching ""

    No results matching ""